Algorithmen und Softwarewerkzeuge für Vergleichende Genomanalyse

نویسنده

  • Mohamed Ibrahim Abouelhoda
چکیده

Vergleichende Genomanalyse ist ein relativ neues Gebiet der Bioinformatik, das durch die Verfügbarkeit einer immer größer werdender Zahl sequenzierter Genomen an Bedeutung gewinnt. Die vorliegende Dissertation präsentiert Algorithmen und Softwarewerkzeuge, mit denen mehrere Genome effizient verglichen werden können. Die vorgestellten Algorithmen lösen bisher offene Probleme der theoretischen Bioinformatik. In der Praxis reduzierten wir sowohl die Rechenzeit als auch den Platzbedarf für das Vergleichen der großen Genome. 1 Algorithmischer Genomvergleich DNA ist ein polymeres Molekül, bestehend aus einer Folge chemischer Bausteine, so genannten Nukleotiden vom Typ A, C, G, oder T. Das Wort ,,Genom” bezieht sich auf den kompletten DNA-Inhalt einer Zelle in einem Organismus; jede Zelle beinhaltet eine Kopie des Genoms. (In der Informatik-Fachsprache ist das Genom ein Zeichenkette ,,string” über einem Alphabet, das aus vier Zeichen besteht.) Mittels Sequenzierungstechnologie, die in den Siebzigern des letzten Jahrhunderts entwickelt und in den letzten Jahren drastisch verbessert wurde, ist es möglich, die Folge von Nukleotiden eines Genoms zu bestimmen. Das erste vollständig sequenzierte Genom–das Bakteriengenom H. influenza–wurde 1995 veröffentlicht. Nach nur wenigen Jahren, 2001, wurde der erste Sequenzierungsentwurf des menschlichen Genoms publiziert. Bislang (März 2006) enthalten die öffentlichen Datenbanken Genome von mehr als 350 (260 im April 2005) Organismen und ungefähr 1100 Viren. Zusätzlich laufen aktuell mehr als 1500 Sequenzierung-Projekte. Wissenschaftler des Humangenomprojekts konnten viele der unerwarteten Ergebnisse im menschlichen Genom durch den Vergleich mit bekannten Sequenzen anderer Organismen erklären. Durch die stetig steigende Zahl verfügbarer Genomvergleichsdaten kann immer besser nachvollzogen werden, wie Genome sich organisieren, funktionieren, replizieren und entwickeln. Auch die Biotechnologie und Pharmazie erwartet durch den Einsatz von Vergleichsmethoden Aufgaben schneller lösen zu können, wie etwa die Steigerung der Produktivität von Organismen oder die Identifizierung von Proteinoder DNA-Segmenten, auf denen Arzneimittel wirken. Bevor die Sequenzen gesamter Genome zur Verfügung standen, beschäftigten sich Informatiker in der Biologie hauptsächlich mit der Verwaltung kleiner Teilsequenzen. Auf diesen konnten bekannte Vergleichsverfahren, die quadratische Laufzeit benötigen, in angemessener Zeit ausgeführt werden. Die Analyse ganzer Genome, die eine Größenordnung von mehreren Milliarden Basenpaaren haben, erfordert von Informatikern die Entwicklung völlig neuer Algorithmen und Softwarewerkzeuge, die diese enorme Datenmengen vergleichen können. Dies ist zugleich die Motivation für den Algorithmischen Genomvergleich als wachsendes Gebiet der Bioinformatik. 2 Die Dissertation: Eine Übersicht Die vorliegende Dissertation präsentiert Algorithmen und Werkzeuge für die Analyse und den Vergleich großer genomischer Sequenzen [Abo05]. Die dazu entwickelten Algorithmen können in zwei Kategorien eingeteilt werden: Algorithmen, die große genomische Sequenzen anhand einer Indexdatenstruktur analysieren und Algorithmen, welche mehrere Genome vergleichen. Das Indizieren der genomischen Sequenzen ist ein primärer Schritt, um sie vergleichen zu können. Zu diesem Zweck führten wir eine neue Indexdatenstruktur, genannt erweitertes Suffix-Array, ,,Enhanced Suffix Array (ESA)”, als eine effizientere Datenstruktur als der Suffix-Baum, ein. Der Suffix-Baum ist eine bewährte Indexdatenstruktur, die für viele Anwendungen in der Sequenzanalyse verwendet wird [Gus97]. Allerdings stellt der große Platzbedarf des Suffix-Baumes einen gravierenden Engpass der darauf basierenden Anwendungen dar; er benötigt ca. 20n Bytes Speicher (20 Bytes pro Zeichen der Eingabesequenz der Länge n). Das Suffix-Array ist eine andere Indexdatenstruktur, die vor ca. 13 Jahren [MM93] vorgestellt wurde und nur 4n Bytes beansprucht. Jedoch wurde das SuffixArray lange nicht beachtet, da die darauf basierenden Algorithmen für nicht so effizient gehalten wurden. Ein Grund dafür war, dass der einzig bekannte Algorithmus auf SuffixArrays, der Fragen des Typs ,,ist die Zeichenkette P der Länge m ein Teilwort des Textes S der Länge n” beantwort, ZeitkomplexitätO(m+log n) hat, während der entsprechende Algorithmus auf dem Suffix-Baum inO(m) Zeit läuft. Gravierender war jedoch, dass man nicht wusste, ob man alle Probleme, die durch einen Suffix-Baum lösbar sind, auch mit einem Suffix-Array lösen kann; und falls dies möglich ist, ob die Effizienz der Algorithmen mit denen des Suffixbaumes vergleichbar sind. Unser erweitertes Suffix-Array lieferte die Antworten auf diese Fragen. Das erweiterte Suffix-Array einer Sequenz S besteht aus dem bekannten Suffix-Array von S und Zusatzinformation, die in weiteren Tabellen abgelegt ist. Mit Hilfe dieser Tabellen kann jeder Algorithmus auf dem Suffix-Baum durch einen gleichwertigen auf dem ESA ohne Verlust der Effizienz systematisch ersetzt werden; d. h. unsere Algorithmen haben die selbe Zeitkomplexität wie jene für den Suffix-Baum. Beispielsweise kann die oben erwähnte Frage ,,ist P in S?” jetzt in linearer Zeit auf dem ESA beantwortet werden. Außerdem präsentieren wir eine Reihe von Algorithmen, die ausschließlich aus den Eigenschaften des ESA Nutzen ziehen. Abhängig von der Anwendung benötigt das ESA in der Praxis 5n bis 7n Bytes. Trotz dieser Speicherreduzierung zeigen experimentelle Ergebnisse, dass unsere ESA-Algorithmen nicht nur speichereffizienter, sondern auch schneller als die entsprechenden Suffix-Baum-Algorithmen sind. 10 Algorithmen und Softwarewerkzeuge für Vergleichende Genomanalyse

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Algorithmen für das Design von DNA-Microarrays

Wir formulieren und lösen algorithmische Probleme, die beim Entwurf und bei der Produktion von DNA-Microarrays, einem Hochdurchsatz-Hilfsmittel in der funktionalen Genomanalyse, auftreten; insbesondere wird die effiziente Auswahl Transkript-spezifischer Signatur-Oligonukleotide behandelt. Das Problem wird insbesondere dann komplex, wenn spezifische Oligonukleotide nicht existieren; für diesen F...

متن کامل

Szenario-basierte Testverfahren zur Zertifizierung von Wasserzeichen

Verschiedenste Algorithmen zum Markieren digitaler Daten wurden in den letzten Jahren veröffentlicht und entwickelt, um die Daten mit nicht wahrnehmbaren Kennzeichnern zu versehen. Unterschiede in den Algorithmen sind zum Teil nur marginal, oder sie unterscheiden sich in ihren Grundprinzipien. Eine objektive Bewertung existierender Algorithmen ist schwierig und kostenintensiv. Deshalb ist diese...

متن کامل

Algorithmen lernen mit interaktiven Visualisierungen

Es werden drei Formen des interaktiven visuellen Lernens von Algorithmen behandelt: Betrachten einer Animation, interaktives Üben der Schritte und Experimentieren mit einer Simulation. Für sie werden aus didaktischer und softwareergonomischer Sicht wünschenswerte Merkmale angegeben und Beispiele aus webbasierten Lernprogrammen gezeigt. Diese Systematik soll es dem Lehrer erleichtern, aus der Fü...

متن کامل

Asymmetrische Evolutionsstrategien

Die in dieser Dissertation entwickelten asymmetrischen Evolutionsstrategien sind Optimierverfahren, die den evolutionären Algorithmen zuzuordnen sind. Durch Entwicklung einer asymmetrischen Verteilungsfunktion und Realisierung eines zugehörigen Zufallszahlengenerators ist es möglich, die Leistungsfähigkeit und die Robustheit dieses Optimierverfahrens in Regionen zu bringen, die den evolutionäre...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005